iT邦幫忙

2023 iThome 鐵人賽

DAY 17
1
自我挑戰組

SRE 照書養系列 第 17

Day 17 - SRE 照書養:Borg 的其他軟體系統

  • 分享至 

  • xImage
  •  

今天是中秋連假的最後一天!收拾心情明天準備上班拉!這裡是今天讀的原文出處:The Production Environment at Google, from the Viewpoint of an SRE,那我們就開始吧!

除了前天三天提到的內容:

還有一些重要的運行組件:像是鎖服務(Lock Service) 或是監控系統

第一個是鎖服務(Lock Service),Borg 使用鎖服務的原因主要有兩點:

  • Chubby 提供了高可靠的分布式鎖服務:Borg 需要一個穩定、可靠的鎖服務來維護系統的一致性和數據完整性。Chubby 提供一個類似文件系統的 API,可以在異地或跨機房級別處理鎖請求,並通過 Paxos 算法確保其集群內部節點之間的一致性,對外提供的鎖服務非常穩定可靠。
  • Chubby 提供了服務發現的功能:Borg 中的任務需要知道其依賴的其他服務的位置信息,Chubby 提供了 Name Service,可以將位置資訊儲存在 Chubby 中,當 Jobs 需要查找其他服務的位置資訊時,可以直接查詢 Chubby。此外,Chubby 的 watch 功能能有效地感知和回應其他服務的變動。

第二個是監控和警報系統,也是服務維運的關鍵。Borgmon 監控程序在數據中心中運行,定期獲取監控對象的監控行為。這些監控指標可用於觸發警報,或存儲供以後查看。監控系統的主要應用包括報告真實問題,比較服務更新前後的狀態變化,以及查看資源使用量的時間變化,這對於制定資源計劃非常有用。在維護和運行服務時,分布式鎖服務和監控系統都起著至關重要的作用。

後記

今天瞭解了其他在 Borg 中同樣重要的組件系統,後面會更深入講解 Borg 監控系統的部分,那接著就來看軟體的基礎設施,那就明天見囉!掰噗!

參考資料


上一篇
Day 16 - SRE 照書養:Borg 的網路
下一篇
Day 18 - SRE 照書養:Borg 的軟體基礎設施
系列文
SRE 照書養30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言